max rank | avg. rank | sentence |
---|---|---|
54 | 31.5000 | بی بی سی سے بات کر رہے ہیں۔ |
110 | 28.1250 | ان کے لئے میں نے یہ کیا تھا۔ |
126 | 26.3846 | انہوں نے کہا کہ یہ ان کی پارٹی کی حکومت ہی نہیں ہے۔ |
155 | 54.4444 | حملے میں ایک فوجی بھی ہلاک ہو گیا ہے۔ |
161 | 60.3333 | یہ حکومت نے فیصلہ کرنا ہے۔ |
170 | 41.2857 | ان میں سے دو کو بعد میں رہا کر دیا گیا تھا تاہم مزید دو کو رہا نہیں کیا گیا تھا۔ |
195 | 100.3636 | اسی روز شہر کے دوسرے علاقوں میں بھی حملے ہوئے تھے۔ |
199 | 66.1429 | اس کے علاوہ دو لوگ اور تھے۔ |
201 | 72.2500 | پاکستانی ٹیم کا اعلان کر دیا گیا ہے۔ |
207 | 132.8571 | یہاں بڑی تعداد میں پاکستانی آباد ہیں۔ |
207 | 68.4286 | لوگوں نے بتایا کہ وہ یہاں تھے۔ |
211 | 89.2857 | اس موقع پر فوج بھی موجود تھی۔ |
228 | 67.9000 | اس کارروائی ایک امریکی فوجی بھی کی ہلاک ہوا ہے۔ |
228 | 95.3750 | اس لیے طالبان نے کارروائی کا فیصلہ کیا۔ |
230 | 123.1111 | آج قومی اسمبلی کا اجلاس شروع ہو رہا ہے۔ |
230 | 86.3333 | اس کے لئے اسمبلی موجود ہے۔ |
240 | 82.7778 | اس کارروائی میں چھ افراد ہلاک بھی ہوئے تھے۔ |
241 | 81.1538 | تاہم سرکاری طور پر ابھی اس بات کا اعلان نہیں کیا گیا ہے۔ |
248 | 85.1429 | اس نے پانچ سال تک حکومت کی۔ |
249 | 109.4286 | تاہم اس بار ایسا نہیں کیا گیا۔ |
252 | 66.6000 | ’ ہم انہیں کسی کے حوالے کرنے نہیں جا رہے ہیں۔' |
256 | 117.3636 | واضح رہے کہ یہ رپورٹ ایسے موقع پر سامنے آئی ہے۔ |
260 | 46.0000 | ان کا کہنا تھا کہ حکومت ان کی سکیورٹی کے لیے بہت کچھ کر رہی ہے۔ |
265 | 72.9091 | پاکستان میں جو کیا جا سکتا ہے وہ بہت مختلف ہے۔ |
274 | 96.6667 | پاکستان میں پارٹی سربراہ ہی سب کچھ ہوتا ہے۔ |
275 | 84.4286 | انہیں پاکستان حوالے کرنے کا فیصلہ امریکہ کے قانون کے مطابق کیا جائے گا۔ |
276 | 56.4444 | یہ سب سے کو نے کا حصہ تھا ۔ |
277 | 117.5000 | اس دوران پولیس بھی اپنا کام کرے گی۔ |
282 | 77.8000 | اس بیان میں ترجمان کا نام نہیں دیا گیا ہے۔ |
282 | 71.5909 | بی بی سی سے بات کرتے ہوئے ترجمان کا کہنا تھا کہ امریکی حملے میں ہلاک ہونے والے تمام لوگ مقامی تھے۔ |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II